Pfam (Protein Families) ist eine frei zugängliche Datenbank für bioinformatische Zwecke. Es handelt sich zum einen um eine maschinelle Kategorisierung von Proteindomänen, die alle bekannten Proteine einschließt. Grundlage ist die Mustererkennung mittels Machine Learning der Aminosäuresequenz. Die so ermittelten Muster können zum anderen in neuen Proteinen wiedergefunden werden, was einen Hinweis auf die Zusammensetzung dieser Proteine aus Domänen, und damit auch auf ihre Funktion, bzw. bei Enzymen auf die enzymatische Aktivität gibt. Für diese Vorhersage stellt Pfam einen Webservice bereit.
Pfam besteht aus zwei Teilen, Pfam-A und Pfam-B. In Pfam-A sind gut charakterisierte Domänen zusammengefasst, während sich Domänen mit unbekannter Funktion in Pfam-B befinden. Bei der Methode des maschinellen Clustering und der Mustererkennung handelt es sich um Hidden Markov Modelle.[1]
Pfam wurde 1997 von den Bioinformatikern Erik Sonnhammer (Karolinska Institutet bei Stockholm), Sean Eddy (Washington University in St. Louis, USA), und Richard Durbin (Wellcome Trust Sanger Institute bei Cambridge, UK) aufgebaut.[2] Um etliche Funktionalitäten erweitert, kam Anfang 2006 die Aktualisierung 18 heraus.[3] Im März 2013 wurde Pfam 27.0 veröffentlicht.[4]